查看原文
其他

论文推荐|[CVPR 2021] MOST:具有定位细化功能的多向场景文本检测器

黄鎏丰 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍CVPR 2021论文“MOST: A Multi-Oriented Scene Text Detector with Localization Refinement”的主要工作。该论文针对场景文本中的极端纵横比和不同尺度的文本实例提出了一种新的场景文本检测算法,显著提升了文本定位的质量。将文中提出的方法和场景文本检测器EAST[1]相结合,可以保持快速运行的同时在各种数据集上达到SOTA或者相当的效果。

一、研究背景



近年来,场景文本阅读已经成为计算机视觉领域中一个活跃的研究课题。场景文本阅读在很多应用场景有重要的价值,例如视频索引、招牌阅读和即时翻译这些应用都需要从自然图像中自动提取文本信息。在深度神经网络和大量的数据驱动下,场景文本阅读在过去几年有了很大的进展,然而现有的算法在处理极端宽高比和不同尺度的文本实例时效果仍然有待提高。从图一的(b)中可以发现,EAST对长文本检测的效果不太理想。 

图1 (a)(b):EAST检测结果 ;(c)(d):MOST检测结果。

(a)(c):文本区域内3个不同位置预测的原始检测框,采样点与对应的检测盒颜色相同。(b)(d):最终检测结果。

二、方法原理简述



 图2 网络整体框架

图2是文章提出的MOST的整体框架,它以特征金字塔结构[3]的ResNet-50[4]为骨干网络,包含文本/非文本分类器、位置感知图预测头、定位分支和位置感知非最大抑制(PA-NMS)模块。其中定位分支包含一个粗糙定位器、一个文本特征对齐模块(TFAM)和一个精细定位器。骨干网络的输出维度是,H、W表示输入图像的高和框,C是通道数,文章设为256。

文本/非文本分类器将骨干网络的输出通过3*3卷积把通道数降至64,然后使用1*1卷积得到通道数为1的得分图,输出维度是,1*1卷积使用Sigmod激活函数,得分图的值在0到1之间。越接近1代表该位置为文本的概率越大。

位置感知图预测头的网络结构和文本/非文本分类器类似,只是输出维度不一样,位置感知图预测头的输出为,输出值也是在0到1之间,4个通道分别预测检测框左、右、上、下4条边。越接近1代表该位置为边界的概率越大。

定位分支由粗糙定位器、文本特征对齐模块(TFAM)和精细定位器组成。首先,利用粗糙定位器预测出粗糙的结果;然后TFAM在粗检测的基础上动态调整文本特征的感受野,生成对齐特征,并将对齐特征输入细化的定位头,预测最终的检测结果。

粗糙定位器和精细定位器有相同的结构,3*3卷积把通道数降到64,再用1*1卷积得到的输出。这五个通道分别表示到文本四边形的四个边的距离和文本四边形的旋转角度。

文本特征对齐模块(TFAM)的示意图如图3所示。首先,利用粗检测结果生成采样点;然后将采样点应用于可变形卷积算子[2],得到对齐特征进行精细定位。位置的对齐特征可以表示为: 

x表示输入特征图,w为可形变卷积权值,为正常卷积的采样位置,为额外的位置偏移。原始的可形变卷积是利用基于特征的采样方法获取,通过对特征卷积得到。文中提出了一种新的采样方式,基于粗检测框的采样,即让采样点均匀分布在采样框中,如图3(b)所示。 

图3 TFAM示意图 (a) 基于特征的采样 (b)基于粗检测框的采样

(a) (b)中紫色点表示规则采样格点,黄色点表示变形采样点。额外的偏移量(∆pn)用浅绿色箭头表示

位置感知非最大抑制(PA-NMS)相对于EAST中的NMS使用文本非文本得分作为NMS的权重,文中采用位置感知图得分作为PA-NMS的权重。可以用下面的公式表示:  

m表示合并方框,分别表示m的第i个和第k个顶点的x和y坐标。分别表示p、q预测框的第i个和第k个顶点的x、y坐标。L,R,T,B分别是左右上下边线的位置感知图相应点的值。

此外,为了平衡不同尺度的文本实例,文中提出了Instance-wise IoU损失函数。 

主要实验结果及可视化结果: 

图4 在4个数据集上的结果图 

上面行是Base Line结果,下面行是MOST结果

表1 采样方法消融实验 FB:基于特征采样 LB:基于粗定位采样 CB:混合两种方法 

表2 三种策略的消融实验 

表3 在IC15上使用IOU@0.5指标的结果

表4 在IC15和MSRA-TD500上使用IOU@0.7指标的结果 

表5 在MSRA-TD500上使用IOU@0.5指标的结果 

表6 MLT17测试集结果 

表7 MTWI测试集结果 

本文在MLT17[5]、MTWI[6]、IC15[7]、MSRA-TD500[8]数据集上验证了所提方法的有效性,文中方法在保持较高FPS的同时在各种数据集上达到SOTA或者相当的效果。并且使用消融实验验证了所提策略能够带来性能提升。

三、总结及讨论



在本文中提出了一套策略来解决现有的场景文本检测算法的主要缺陷:对超长文本实例的几何预测不精确,以及在处理显著尺度变化方面的缺陷。综合实验表明,所提出的方法原则性地解决了这些问题,并在该领域的标准数据集上优于以往的先进方法。此外,值得注意的是,所提出的策略是通用的,因此可以很容易地扩展到许多其他一阶段文本检测方法。

四、相关资源



MOST: A Multi-Oriented Scene Text Detector with Localization Refinement 论文地址: https://arxiv.org/pdf/2104.01070.pdf

参考文献



[1] Zhou X, Yao C, Wen H, et al. East: an efficient and accurate scene text detector[C]. Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017: 5551-5560.

[2] Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]. Proceedings of the IEEE international conference on computer vision. 2017: 764-773.

[3] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.

[4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. CVPR. 2016: 770-778.

[5] Nayef N, Yin F, Bizid I, et al. Icdar2017 robust reading challenge on multi-lingual scene text detection and script identification-rrc-mlt[C]. 2017 14th ICDAR. IEEE, 2017, 1: 1454-1459.

[6] He M, Liu Y, Yang Z, et al. ICPR2018 contest on robust reading for multi-type web images[C]. 2018 24th ICPR. IEEE, 2018: 7-12.

[7] Karatzas D, Gomez-Bigorda L, Nicolaou A, et al. ICDAR 2015 competition on robust reading[C]. 2015 13th ICDAR. IEEE, 2015: 1156-1160.

[8] Yao C, Bai X, Liu W, et al. Detecting texts of arbitrary orientations in natural images[C]. 2012 CVPR. IEEE, 2012: 1083-1090.


原文作者:Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng,  Cong Yao, Yongpan Wang, Xiang Bai


撰稿:黄鎏丰编排:高  学审校:连宙辉发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾


欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存